查看原文
其他

重磅!十五篇文章齐发揭开DNA元件百科全书计划ENCODE新阶段(上)

十一月 BioArt 2021-04-11

撰文 | 十一月

责编 | 兮


编者按
DNA元件百科全书(ENCyclopedia of DNA Elements,ENCODE始于2003年,致力于绘制人类与小鼠基因组功能性元件的综合图谱。2020年7月29日,Nature(10篇)Nature Methods(1篇)Nature Communications(3篇)bioRxiv(1篇)共计发表15篇文章对ENCODE的第三个阶段成果进行了系统性总结。ENCODE第三阶段以人和小鼠为研究对象,涉及RNA转录、染色质结构和修饰、DNA甲基化、染色质环以及转录因子和RNA结合蛋白等,共鉴定出了20,225个蛋白质编码基因和37,595个蛋白质非编码基因,注释了包括人类基因组中的90万个和小鼠中的30万个调控元件的信息。限于篇幅,BioArt特将15篇文章分成两个部分,以飨读者!第一部分包含7篇Nature和1篇bioRxiv,剩余部分在第二篇(详见今天推送的第二条文章)

ENCODE项目联盟牵头(The ENCODE Project Consortium)、美国斯坦福大学Michael P. Snyder研究组在Nature发文题为Perspectives on ENCODE,对ENCODE计划的最新进展进行了总结。ENCODE计划全称是The Encylopedia of DNA Elements,意在揭开人类基因组功能元件的全面图谱。该图谱中包括基因、与基因调控相关的生化区域以及转录本亚型等内容。其中作为候选的顺式调控元件的位点可能会基因表达调控方面发挥作用【1】。目前ENCODE计划已经扩展到生物模型特别是小鼠之中。在ENCODE的第三阶段,该计划已经分别在人类基因组和小鼠基因组中生成了近100万个和超过30万个顺式调控元件的注释,这些注释为科研界将提供宝贵的参考资源。


ENCODE计划启动开始于2003年,彼时人类基因组计划的草图初初落成(图1)【2】,但是对于人类基因组的了解还非常局限。ENCODE计划对于人类基因组的分析是循序渐进、螺旋上升的,目前已经进展到了第三阶段。第一阶段从2003年到2007年是ENCODE的试点阶段,当时对选定的1%的人类基因组进行广泛的功能测定,主要使用基于微阵列的技术【3】在各种细胞系上进行了实验。ENCODE计划的第二阶段从2007到2012年,引入了基于高通量测序的技术,比如染色质免疫沉淀测序技术(ChIP-seq)和RNA测序技术(RNA-seq),对整个人类基因组和转录组的功能进行了研究【4】

图1 人类基因组DNA元件百科全书计划

图2 ENCODE计划中不断增加新技术的应用

最近ENCODE计划的第三阶段初步完成。ENCODE的第三阶段从2012年到2017年,内容进行了进一步扩增并且增加新的检测方法(图2),其中包括通过末端标记配对的染色质相互作用分析(Chromatin interaction analysis by paired-end tagging, ChIA-PET)以及Hi-C染色质构象捕获的等方法揭示RNA结合和染色质三维组织的景观。这些数据在ENCODE的门户网站(http://www.encodeproject.org)上是开放获取的。所有相关组织与多个实验室的通力合作产生了人们对于人类基因组的新认识,共鉴定出了20,225个蛋白质编码基因和37,595个蛋白质非编码基因。ENCODE计划第三阶段的另外一个重要部分是对调控序列元件进行了解析。目前在ENCODE百科全书计划中已经整合的包括人类基因组中的90万个和小鼠中的30万个调控元件的注释信息。详细信息发表在同期Nature杂志以及其他的期刊之上,以下对人类基因组增加的相关部分的文章进行介绍。



一、ENCODE计划第三阶段的纲领与总结


人和小鼠的基因组包含指导RNA和蛋白质表达的指令并控制它们产生的时间、幅度以及和细胞内环境。为了更好地描述这些元素,ENCODE计划的第三阶段扩展了RNA转录、染色质结构和修饰、DNA甲基化、染色质环以及转录因子和RNA结合蛋白的结合特点的细胞和组织库的分析。在该文章中,对ENCODE第三阶段产生了5992个新的实验数据图谱进行了总结,其中包括对小鼠胎儿发育的系统测定。所有数据都可以通过ENCODE的门户网站获得。同时,通过整合与基因调控相关的DNA元件的注释,ENCODE计划的第三阶段还开发了一个顺式调控元件相关注释信息表并构建了一个网站(SCREEN; http://screen.encodeproject.org),提供对该资源灵活的、用户定义的访问。总的来说,蛋白质编码与非编码基因数据与顺式调控元件注释信息表为科学界建立对人类和小鼠基因组组织和功能的更好理解提供了广阔的资源。

二、染色质相关蛋白占位图谱(Occupancy maps)


美国哈森阿尔法生物技术研究院Eric M. Mendenhall研究组与Richard M. Myers研究组合作发文题为Occupancy maps of 208 chromatin-associated proteins in one human cell type,揭开了人类细胞中染色质相关蛋白在染色质上的占据图谱信息。转录因子是DNA结合蛋白,在基因调控过程中发挥着关键作用。转录因子在全基因组上的占据图谱对于理解不同转录因子的基因调控以及其对不同生物过程的影响至关重要。在本文中,作为ENCODE计划的一部分,作者们使用人HepG2细胞系对208个的染色质相关蛋白进行了染色质免疫共沉淀高通量测序。这些转录因子包括171个转录因子和37个转录辅助因子和染色质调节蛋白并代表了HepG2细胞中近四分之一的染色质相关蛋白的表达。该分析为ENCODE计划的进一步完善提供了重要信息,同时也为基因调控网络提供了一个更完整的概述。

三、DNase I超敏位点图谱


美国西雅图阿尔提乌斯生物医学科学研究所John StamatoyannopoulosWouter Meuleman研究组发文题为Index and biological spectrum of human DNase I hypersensitive sites,作为ENCODE计划第三阶段的一部分揭开了人类基因组中DNase I超敏位点图谱。DNase I超敏位点是调控DNA序列的遗传学标记,包括与疾病以及表型相关的遗传变异信息。该文章通过对733个人类生物样品建立了高分辨率DNase I超敏位点图谱,通过整合这些数据作者们对人类基因组序列中大约360万个DNase I超敏位点进行描述和数字索引,为调控DNA提供了一个共同的坐标系统。另外该工作还展示了这些图谱中人类基因组的顺式调控单元,这些调控单元以非常高的密度出人意料地编码不同的细胞和组织选择性调控程序。总的来说,该研究成果为以DNase I超敏位点图谱为人类调控DNA创建了一个通用的、可扩展的坐标系统和查询表并为人类基因调控的结构提供了一个新的全局视角。

四、人类转录因子足迹图谱


美国西雅图阿尔提乌斯生物医学科学研究所John StamatoyannopoulosJeff Vierstra研究组发文题为Global reference mapping of human transcription factor footprints,作为ENCODE计划第三阶段的一部分揭开了人类基因组中转录因子足迹(Transcription factor footprints)图谱。基因组DNase I酶足迹技术能够定量的、以核苷酸分辨率水平的对染色质内的转录因子占用位点进行解析。在该工作中,作者们为了全面绘制转录因子足迹图从243种人类不同细胞和组织类型和状态中绘制了高密度的DNase I酶解图谱,并对大约450万个在核苷酸分辨率下编码转录因子占用的紧密基因组元件信息进行总结。该工作为基因调控机制和功能性遗传变异的全局和核苷酸水平上的精确分析提供了一个框架。

五、人类主要细胞种类的转录程序图谱


西班牙巴塞罗那科技学院Roderic Guigó研究组与冷泉港实验室Thomas R. Gingeras研究组合作发表预印本文章题为A limited set of transcriptional programs define major cell types,为人体内主要细胞类型的转录程序进行了解析。目前ENCODE计划已经为人体不同位置的多种原代细胞制作了RNA测序数据。这些原代细胞的RNA测序结果聚类表明,人体内的大多数细胞都具有一些广泛的转录程序,这些程序定义了五种主要的细胞类型:上皮细胞、内皮细胞、间充质细胞、神经细胞和血细胞。该工作为人类细胞的不同分类和定义提供了新的参考。

六、黏连蛋白介导的染色质相互作用图谱


美国斯坦福大学医学院Michael Snyder研究组发文题为Landscape of cohesin-mediated chromatin loops in the human genome,揭开了黏连蛋白介导的染色质环在人类基因组中的景观。较远距离基因调控元件之间的物理相互作用在调控基因表达中起着关键作用,但这些相互作用在细胞类型之间的程度不同,因此对于细胞类型特异性基因表达的机制尚不清楚。

为了解决这些问题,作者们利用配对末端标记测序技术
(Chromatin interaction analysis by paired-end tag sequencing, ChIA-PET对染色质相互作用进行分析,绘制了黏连蛋白介导的染色质环形成在人类全基因组中的景观分布,并分析了24种不同人类细胞类型的基因表达。黏连蛋白介导的染色质环图谱补充了构成编码百科全书的各种调控结构图谱,并将有助于支持基因组结构和功能的新兴分析。

七、RNA结合蛋白的结合与功能图谱


美国加州大学圣地亚哥分校Gene W. Yeo研究组、UConn Health的Brenton R. Graveley研究组、麻省理工学院Christopher B. Burge研究组、加拿大IRCM研究所Eric Lécuyer 研究组与加州大学圣地亚哥分校Xiang-Dong Fu(付向东)研究合作发文题为A large-scale binding and functional map of human RNA-binding proteins揭开了人类基因组中RNA结合蛋白的大规模结合和功能图谱。许多蛋白质通过与基因组特定区域结合来调控基因的表达。在该工作用,作者们对识别人类基因组中RNA元件的RNA结合蛋白的建立了新的数据图谱,作为ENCODE计划的第三阶段的一部分内容。RNA元件作为RNA结合蛋白的结合位点控制转录后比如对RNA剪接、mRNA的编辑、定位、稳定性以及翻译等过程。作者们对K562和HepG2细胞中大量识别RNA元件的RNA结合蛋白进行了解析,综合使用5种方法整合分析并确定了RNA结合蛋白在体内RNA和染色质上的结合位点、在体外的结合偏好、结合位点的功能和亚细胞定位。这些数据扩展了人类基因组中编码的功能元件的目录,增加了对于RNA结合蛋白在人类基因组表达调控中的全局性认识。

ENCODE计划的顺利进展取决于技术的进步、质量控制以及统一标准。在ENCODE计划的第二阶段高通量测序技术已经全面进驻,而不再是试点实验阶段中使用的微阵列为基础的实验方法。以上七篇工作通过高通量测序技术为ENCODE计划增加了全基因3D相互作用图谱、RNA结合区域等内容,大大扩增对于人类基因组中3D基因组结构以及调控元件功能的认识。而较高要求的质量控制与统一标准使得ENCODE计划在其他的不同计划、不同组织、不同联盟中通用性较强,与其他科学群体形成了强强联合的知识网络。ENCODE计划开放的SCREEN网站也为识别和研究这些基因调控序列以及相关的编码数据和其他注释提供了便捷的获取接口。

ENCODE这一宏大的DNA元件百科全书计划将为人类基因组的研究开启新纪元。

原文链接:
https://doi.org/10.1038/s41586-020-2449-8
https://doi.org/10.1038/s41586-020-2493-4
https://doi.org/10.1038/s41586-020-2023-4
https://doi.org/10.1038/s41586-020-2559-3
https://doi.org/10.1038/s41586-020-2528-x
https://www.biorxiv.org/content/10.1101/857169v2
https://doi.org/10.1038/s41586-020-2151-x
https://doi.org/10.1038/s41586-020-2077-3

制版人:MENG


参考文献



1. Kellis, M. et al. Defining functional DNA elements in the human genome. Proceedings of the National Academy of Sciences of the United States of America 111, 6131-6138, doi:10.1073/pnas.1318948111 (2014).
2. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science (NewYork, N.Y.) 306, 636-640, doi:10.1126/science.1105136 (2004).
3. Birney, E. et al. Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature 447, 799-816, doi:10.1038/nature05874 (2007).
4. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57-74, doi:10.1038/nature11247 (2012).

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存